Vorwort

In diesem Projekt werden Daten verwendet, die eine Art von kompositionellen Daten (bzw. Zusammensetzungsdaten, engl. compositional data) darstellen. Meistens werden sie in Prozent angegeben, daher enthalten sie relative Informationen, die zu einer konstanten Zahl summieren. Diese Eigenschaft der Zusammensetzungsdaten macht viele statistische Standardansätze ungültig. In diesem Beitrag werden ein Zusammensetzungsdatensatz mit Angaben in absoluten Zahlen und die Standardmethoden für die Clusteranalyse verwendet. In Teil 2 des Projekts werden die speziell für die Zusammensetzungsdaten entwickelten Analysemethoden verwendet, um die Ergebnisse der beiden Verfahren zu vergleichen.

1. Einführung

Die Vorbereitung für das Superwahljahr 2021 in Berlin, in dem sowohl die Wahl zum BVV, Berliner Abgeordnetenhaus und Bundestag stattfinden, hat bereits begonnen. Eine zielgerechte Ansprache der potenziellen Wähler ist ein wichtiger Aspekt einer erfolgreichen Wahlkampagne und setzt gute Kenntnisse der demographischen Struktur sowie der politischen Präferenzen der Bürger im Wahlgebiet voraus. Die folgende Analyse soll Einblicke in die Berliner Wählerschaft im Hinblick auf die Interessen der Freien Demokraten in Pankow geben. Ziel ist es, Gruppen von Wahllokalen zu finden, die möglichst homogene Wahlergebnisse aufweisen und zwischen den unterschiedlichen Gruppen möglichst heterogen bleiben. Es wird die Clusteranalyse angewendet, um die Gebiete bzw. Wahllokale mit ähnlichen Wählerpräferenzen zu identifizieren und auf einer interaktiven Karte zu präsentieren.

In der folgenden Clusteranalyse werden ausschließlich die Wahlergebnisse der Zweitstimmen der Bundestagswahl 2017 zusammengeführt. Einbezogen sind die Stimmen aus den einzelnen Wahllokalen für die sechs Bundestagsparteien (>5% auf Bundesebene) und der restlichen Parteien, zusammenaddiert als “Sonstige”. Die Stimmen der Briefwahl sind ausgeschlossen, da sie aufgrund eigener räumlicher Zuteilng, den einzelnen Wahllokalen nicht direkt zugeordnet werden können.

Die Anwendungen der Clusteranalyse reichen von Marketing, Telekomunikation bis zu wissenschaftlichen Disziplinen wie Medizin, Soziologie, Psychologie usw. Bei den Untersuchungsobjekten kann es sich um Individuen, Gegenstände, Länder oder andere Verwaltungseinheiten handeln. Das Verfahren hilft z.B. bei einer Analyse von Kunden und liefert als Ergebnis homogene Kundengruppen (Kundensegmentierung), um durch Personalisierung einen effektiveren Kundenservice zu erreichen. Die feingranularen Daten auf der Ebene der einzelnen Wahllokale, der kleinsten Wahlregioneinheit, ermöglichen sehr präzise Bestimmung der Wählerpräferenzen in den Ortsgebieten in Berlin. Diese Informationen können beispielweise sowohl dem Bezirksverband Pankow als auch den Ortsverbänden (Prenzlauer Berg, Stadt Land Panke, Weißensee) nützliche Erkenntnisse über ihre potenziellen Wähler liefern.

2. Methodik

2.1. Clusteranalyse

Clusteranalyse, auch als Clustering bezeichnet, ist eine unüberwachte Methode des maschinellen Lernens (englisch: unsupervised learning), bei der ähnliche Objekte (Datenpunkte) in Gruppen unterteilt werden. Die Objekte werden in der Regel durch eine Menge von Attributen repräsentiert, in dieser Analyse durch die Anzahl der Stimmen für die Parteien in Berliner Wahllokalen. Die Gruppen werden als Cluster bezeichnet.

Die Clusteranalyse verwendet mathematische Algorithmen, um die Gruppen ähnlicher Objekte, basierend auf den kleinsten Abweichungen zwischen den Objekten innerhalb jeder Gruppe zu ermitteln. Man möchte also eine große Datenmenge (z.B. 1779 Wahllokale in Berlin) durch eine kleinere ersetzen, die leichter zu interpretieren und zu handhaben ist, ohne dabei Informationen über die Daten zu verlieren. Es wird also versucht, aus dem vorhandenen Datensatz eine Struktur und Bedeutung zu erstellen. Die Charakterisierung der Gruppen ist vorab nicht bekannt und es sind keine im Voraus bekannten Zielwerte gegeben - deswegen wird Clustering als unüberwacht bezeichnet. Die Kennzeichnung entsteht im Laufe der Analyse, im Gegensatz zur Klassifikation, bei der vorab Gruppen-Bezeichnungen definiert werden.

Ein zentraler und zugleich schwieriger Teil der Clusteranalyse ist die Bestimmung einer optimalen Anzahl der Cluster. Die Ermittlung der Clusterzahl spielt eine wesentliche Rolle und bedingt die Qualität der Analyse. Es stehen zwar zahlreiche mathematisch begründete Entscheidungskriterien zur Vefügung, jedoch oft ergeben diese oft verschiedenen Ergebnisse und es gibt keine optimale, allgemeine Lösung. Für die Auswahl der Clusterzahl wird daher eine Reihe von Methoden herangezogen. Die Deutlichkeit der Ergebnisse sowie das am häufigsten auftretende Ergebnis werden in Betracht gezogen.

Alle Analysen werden mit R - einer open source Programmiersprache für statistische Analysen und Datenvisualisierung durchgeführt.

2.2. Datensatz

Diese Clusternalyse beruht auf Zweitstimmen der Bundestagswahl 2017 im Bundesland Berlin, auf der Ebene der Wahllokale. Das Berliner Wahlgebiet ist in 12 Bezirke, 1779 Urnenwahlbezirke und 718 Briefwahlbezirke eingeteilt. In jedem Urnenwahlbezirk gibt es ein Wahllokal mit einem Wahlvorstand (Wahlgebietseinteilung, berlin.de). Ein Wahllokal entspricht der polingarea_number in der Datei und wird als eine 5-stellige Zahl, mit einem Zusatz “W” (Wahllokal, pollingarea_type=‘regular’) an der dritten Stelle angegeben. Die zwei ersten Ziffern bezeichnen die Bezirksnummer der Stadt Berlin, die drei letzten Ziffern den Urnenwahlbezirk. Die Nummerierung der Briefwahlgebiete (pollingarea_type=‘postal’) unterliegt einer anderen Notation und ist an dieser Stelle nicht weiter relevant.

Tab. 1: Einblick in die Rohdaten, Bundestagswahl 2017, Berlin
election_id admin_name pollingarea_number pollingarea_type constituency_id Bezirk_Nr Bezirk eligible voters valid vote_type DE-ADD DE-AfD DE-BERG DE-BGE DE-BP DE-BÜSO DE-CDU DE-CSU DE-DiB DE-DKP DE-DM DE-FDP DE-FW DE-GESUNDHEIT DE-GRAUE DE-GRÜNE DE-HUMANISTEN DE-LINKE DE-MAGDEBURG DE-MENSCHLICH DE-MLPD DE-NPD DE-ÖDP DE-PARTEI DE-PIRATEN DE-PSG DE-RECHTE DE-SPD DE-TIERSCHUTZ DE-TIERSCHUTZALLIANZ DE-URBAN DE-V DE-VERNUNFT DE-VOLKSABSTIMMUNG
DE-FED-20170924 Berlin, Stadt 01W101 regular DE-FED-20170924-075 075 Mitte 1531 768 762 list 0 50 0 4 0 0 179 0 4 1 2 99 2 1 1 137 0 146 0 0 0 0 1 8 3 0 0 117 6 0 0 1 0 0
DE-FED-20170924 Berlin, Stadt 01W102 regular DE-FED-20170924-075 075 Mitte 1319 612 610 list 0 49 0 2 0 0 149 0 1 0 1 96 1 4 2 119 0 76 0 1 0 0 0 9 2 0 0 89 3 0 6 0 0 0
DE-FED-20170924 Berlin, Stadt 01W103 regular DE-FED-20170924-075 075 Mitte 1598 786 782 list 0 42 1 2 0 0 169 0 7 0 2 127 0 1 0 140 0 149 0 0 0 0 2 18 4 0 0 110 5 0 1 2 0 0
DE-FED-20170924 Berlin, Stadt 01W104 regular DE-FED-20170924-075 075 Mitte 1274 616 612 list 0 38 0 2 0 0 135 0 4 1 2 80 1 0 0 137 0 99 0 1 0 0 0 10 2 0 0 94 3 0 1 2 0 0
DE-FED-20170924 Berlin, Stadt 01W105 regular DE-FED-20170924-075 075 Mitte 1078 523 517 list 0 36 0 0 0 0 94 0 5 0 0 56 0 0 0 105 0 128 0 0 0 0 4 10 1 0 0 75 2 0 0 1 0 0
DE-FED-20170924 Berlin, Stadt 01W106 regular DE-FED-20170924-075 075 Mitte 1436 672 670 list 0 54 0 3 0 0 141 0 4 1 0 109 0 0 1 146 0 93 0 0 0 0 0 11 5 0 0 101 1 0 0 0 0 0
DE-FED-20170924 Berlin, Stadt 01W107 regular DE-FED-20170924-075 075 Mitte 1127 615 609 list 0 41 0 1 0 0 121 0 4 1 7 73 0 3 0 128 0 123 0 1 1 0 1 6 0 0 0 95 3 0 0 0 0 0

Die Rohdaten werden auf die Attribute reduziert, die für die Clusteranalyse und Erstellung einer Karte notwendig sind. Als Attribute der Wahllokale werden also die Anzahl der abgegebenen Stimmen für die Partien AfD, CDU, FDP, GRÜNE, LINKE und SPD einbezogen, sowie der Parteien, die bundesweit unter 5% der Zweitstimmen erlangten, summiert zu “Sonstige”. Die Tabelle 2 zeigt die ersten Spalten der Datei verwendet in der Clusteranalyse. Die Zahlen repräsentieren die Anzahl der Zweitstimmen in Wahllokalen.

Tab. 2: Einblick in die ersten Spalten der Tabelle verwendet in der Clusteranalyse
Bezirk Wahllokal AfD CDU FDP GRÜNE LINKE SPD Sonstige
Mitte 01W101 50 179 99 137 146 117 34
Mitte 01W102 49 149 96 119 76 89 32
Mitte 01W103 42 169 127 140 149 110 45
Mitte 01W104 38 135 80 137 99 94 29
Mitte 01W105 36 94 56 105 128 75 23
Mitte 01W106 54 141 109 146 93 101 26
Mitte 01W107 41 121 73 128 123 95 28

3. Anzahl der Wählergruppen - die Clusterzahl

Aus einer Reihe existierender Lösungsansätze zur Feststellung der Clusteranzahl werden hier vier Algorithmen verwendet, wobei der letzte Algorithmus selbst 26 verschiedene Methoden beinhaltet. Am häufigsten verwendete Methoden in R sind:

  • Ellenbogen-Kriterium
  • Silhouetten-Koeffizient
  • Lückenstatistik (Gap Statistic Method)
  • NbClust() Algorithmus

Zusammen ergeben sie eine robuste Entscheidungsgrundlage. Die theoretischen Grundlagen der Bestimmung der Clusterzahl werden in zahlreichen Beiträgen präsentiert u.a. bei DataNovia (in engl.) oder Wikipedia.


3.1. Ellbogen-Kriterium

Die wahrscheinlich bekannteste Methode ist die Ellbogenmethode, bei der die Gesamtsumme der quadrierten Abweichungen der Entfernung der Datenpunkte von dem Cluster-Zentroiden (engl. within-cluster sum of square, wss), für eine Anzahl von Clustern berechnet und grafisch dargestellt wird. Es soll die Anzahl der Cluster ausgewählt werden, die bei einem Hinzufügen eines weiteren Clusters die wss-Werte nicht wesentlich verbessert. In der Kurve zeigt sich das als Änderung der Neigung von steil nach flach (“Ellbogen”). Die Position der Biegung im Diagramm wird als Ellbogen-Kriterium bezeichnet und steht als Indikator der optimalen Clusterzahl.

Die wss-Werte werden für jede Clusterzahl von 1 bis 10, mittels des k-Means-Algorithmus mit der baseR Funktion kmeans() und der Funktion fviz_nbclust() aus dem factoextra package in R berechnet. Die Position des Ellbogens, damit auch die Clusterzahl, wird in der Kurve durch die vertikale Linie angezeigt.

Abb. 3.1-1: Das Ellbogen-Diagramm zeigt die optimale Clusterzahl von 4.



3.2. Silhouetten-Koeffizient

Eine weitere Visualisierung, mit deren Hilfe die optimale Anzahl von Clustern ermittelt werden kann, wird als Silhouette-Methode bezeichnet. Die Silhouette bestimmt die Qualität der Cluster, indem ein Koeffizient zwischen -1 und 1 bestimmt wird. Dieser zeigt wie gut jede Beobachtung (hier ein Wahllokal) im jeweiligen Cluster liegt. Die Methode berechnet die durchschnittliche Silhouette der Beobachtungen für verschiedene Werte der Clusterzahl. Ein hoher durchschnittlicher Silhouetten-Koeffizient weist auf eine gute Clusterbildung hin. Die optimale Anzahl von Clustern ist diejenige, die die durchschnittliche Silhouette über einen Bereich möglicher Clusterzahlen maximiert.

Die Werte der Silhouetten-Koeffizienten für jede Clusterzahl von 1 bis 10 werden mit der Funktion fviz_nbclust() aus dem factoextra package and pam() aus dem cluster package in R berechnet. Ein maximaler Wert ergibt sich bei der Clusterzahl 4.

Abb. 3.2-1: Der Silhouetten-Koeffizient zeigt die optimale Clusterzahl von 4.

Die Silhouetten unseres Datensatzes für die Clusterzahl 4 zeigt der sogennante Silhouettenplot. Für alle Beobachtungen (in unserem Fall für alle Wahllokale) die zu einem Cluster gehören, werden die Silhouette-Koeffizienten auf der senkrechten Achse angegeben und innerhalb jedes Clusters nach der Größe der Koeffizienten geordnet. Der durchschnittliche Silhouetten-Koeffizient aller Cluster wird mit der waagerechten roten Linie markiert.

Abb. 3.2-2: Optimale Clusterzahl aus der Silhouetten Methode mit eclust() aus dem factoextra package



3.3. Lückenanalyse (Gap Statistic)

Die Lückenstatistik (engl. gap statistic) von Tibshirani et al. (2001) vergleicht die Summe der durchschnittlichen Streuung (engl. within intra-cluster variation) innerhalb des Clusters für eine zunehmende Anzahl von Clustern zu einer Referenzverteilung ohne offensichtlichen Clusterbildung. Der Wert, der die Lückenstatistik maximiert, stellt die optimale Clusterzahl dar. Der maximale Wert ergibt die größte Lückenstatistik und bedeutet, dass die Clusterstruktur sich am weitesten von der zufälligen, gleichmäßigen Referenzverteilung unterscheidet. Die Werte der Lückenstatistik und die optimale Anzahl der Cluster werden mit der clusGap()Funktion aus dem cluster package ermittelt. Diese Methode schlägt für unseren Datensatz nur 1 Cluster vor. Damit gibt die Methode keinen Hinweis darauf, ob der Datensatz überhaupt in Cluster unterteilt werden soll.

Abb. 3.3-1: Optimale Clusterzahl aus der Lückenanalyse des cluster package



3.4. NbClust()

Die vierte Alternative ist die NbClust() Funktion aus dem NbClust package in R. Die Funktion umfasst 26 Methoden zur Bestimmung der optimalen Clusterzahl und schlägt die Lösung vor, welche am häufigsten auftritt. Die Details können in Charrad et al. (2014) nachgelesen werden.

Zwei von den 26 Methoden, der Hubert-Index und der D-Index, sind rein grafische Methoden (siehe Diagramme unten). Die optimale Anzahl von Clustern befindet sich in einem „Ellbogenpunkt“, nach dem der entsprechende statistische Wert in der zweiten Differenz (ein Wert aus der Differentialrechnung) stark abnimmt. Beide Methoden zeigen einen Ellbogen für unseren Datensatz bei der Clusterzahl 4.

Abb. 3.4-1: Optimale Clusterzahl aus der Hubert-Index und der D-Index Methoden

Die Ergebnise der 26 Methoden aus der NbClust() Funktion werden hier in einem Balkendiagramm präsentiert. Der am häufigsten auftretende Wert bestimmt 4 als die optimale Clusterzahl.

Abb. 3.4-2: Die Häufigkeit der Clusterzahlen aus der NbClust() Funktion



3.5. Clustertendenz des Datensatzes - die Hopkins-Statistik

Die meisten Methoden zur Feststellung der Anzahl von Clustern zeigen vier Cluster als eine optimale Lösung für unseren Datensatz. Dennoch hat das Ergebnis der Lückenstatistik keine Cluster “entdeckt” und deutet auf einen uniformen Datensatz hin. Um die Eignung des Datensatzes für Clustering zu testen, führen wir einen diagnostischen Test zu Beurteilung der Clustertendenz unseres Datensatzes, mit der sogenannten Hopkins-Statistik (Lawson & Jurs, 1990) durch. Diese Methode bestimmt die Wahrscheinlichkeit, dass ein Datensatz durch eine gleichmäßige Datenverteilung generiert wird. Mit anderen Worten, sie testet die räumliche Zufälligkeit der Daten. Wir verwenden die get_clust_tendency() Funktion aus dem factoextra package. Ein Wert für Hopkins-Statistik von mehr als 0.5 zeigt eine Clusterbildungstendenz bei einem Konfidenzniveau von 90% an Kassambara 2017, p.97. Das Ergebnis der Hopkins-Statistik für unseren Datensatz beträgt 0.83. Es ist ersichtlich, dass der Datensatz stark clusterfähig ist, da der Wert weit von dem Schwellenwert 0.5 entfernt liegt. Auf die Visualisierung wird an dieser Stelle verzichtet.

Zusammenfassend:
  • Unser Datensatz zeigt deutliche Tendenz zur Clusterbildung;
  • Die meisten Methoden zeigen die optimale Anzahl der Cluster bei 4;
  • Mit dieser Festlegung der Clusterzahl von 4 wird anschließend die Clusternalyse mit dem k-Means Algorithmus durchgeführt.

4. Die Cluster als Wählergruppen

4.1. Wahlergebnisse in Clustern im Vergleich zu Berlin und Pankow

Das k-Means-Clustering (MacQueen, 1967) (engl. mean = Mittelwert) ist einer der am häufigst verwendeten unüberwachten Algorithmen für maschinelles Lernen zum Partitionieren eines Datensatzes in k Gruppen (bzw. k Clustern), wobei k die Anzahl der vom Analysten vorgegebenen Cluster darstellt. Es klassifiziert Objekte in mehrere Cluster, sodass diese Objekte innerhalb desselben Clusters so ähnlich wie möglich sind (hohe Ähnlichkeit innerhalb der Gruppe), während Objekte aus verschiedenen Clustern so unterschiedlich wie möglich sind. Beim k-Means-Clustering wird jeder Cluster durch sein Zentroid (oder Schwerpunkt, engl. centroid) dargestellt, das dem Mittelwert der dem Cluster zugewiesenen Punkte entspricht.

Die Schwerpunkte der Cluster werden durch die gleichen Attribute wie der gesamte Datensatz repräsentiert, in unserer Analyse sind das die Mittlere Anzahl der Zweitstimmen, welche die Wahlergebnisse darstellen. Das Balkendiagramm zeigt, wie stark die Unterschiede zwischen den vier Clustern sind und wie sie im Vergleich mit den Wahlergebnissen im Bezirk Pankow und der Stadt Berlin stehen.

Abb. 4.1-1: Vergleich der Wahlergebnisse zwischen den Clustern, Bezirk Pankow und Stadt Berlin

Die Wahlergebnisse in den Clustern zeigen spezifische politische Tendenzen. Damit lassen sich die vier Cluster als vier Wählergruppen identifizieren. Wenn man die Prozentzahlen der Parteien in den Clustern mit den gesamten Ergebnissen der Stadt Berlin vergleicht, ergibt sich folgendes:

  • Cluster 1 - CDU und FDP mit höheren Ergebnissen im Vergleich zu Stadt Berlin, mit gesamt 39,9% - konservativ-liberal
  • Cluster 2 - nah am Berliner Durchschnitt, rot-rot-grün gesamt 47,8% - rot-rot-grün
  • Cluster 3 - dominiert LINKE 26,9% und GRÜNE 21,9% - sozial-ökologisch
  • Cluster 4 - dominiert LINKE 25,2% und AfD 20,4% - sozial-konservativ

Der Anteil der Wahllokale in den vier Clustern zeigt eine völlig andere Verteilung in Pankow als im Vergleich zu der Stadt Berlin. Die Zahlen über den Diagramm-Balken repräsentieren die Anzahl der Wahllokale in den Wahlregionen Berlin und Pankow. Der Bezirk Pankow ist auf 154 Wahllokale geteilt, was dem Anteil von 8,7% der Wahllokale der Stadt Berlin entspricht.

Abb. 4.1-2: Vergleich der Anteile der Cluster in Bezirk Pankow zu Stadt Berlin



4.2. Die Karten

Die folgende Karten zeigen die Ergebnisse unserer Clusteranalyse (interaktiv) sowie der Bundestagswahl 2017 mit dem Fokus auf den Bezirk Pankow. Ein Vergleich der Anordnung der Cluster mit den Ergebnissen für die sechs Bundestagsparteien zeigt ein konsistentes Bild. Die “Muster” der Cluster überlappen sich mit den Intensitäten der Farben, die die Ergebnisse der Zweitstimmen repräsentieren.

Abb. 4.2-1: Räumliche Anordnung der Cluster in Berlin


Abb. 4.2-2: Räumliche Anordnung der Wahlergebnisse in Pankow

5. Zusammenfassung

Unsere Clusteranalyse der Bundestagswahlen 2017 in Berlin und Pankow liefert interpretierbare Ergebnisse mit drei wichtigen Erkenntnissen:

  • In der Wählerschaft Berlins lassen sich vier Typen identifizieren, die kurz als: 1) konservativ-liberal, 2) rot-rot-grün, 3) sozial-ökologisch und 4) sozial-konservativ bezeichnet werden können;
  • Der Anteil der Wahllokale, die die bestimmten Wählertypen bzw. Cluster repräsentieren, unterscheiden sich deutlich von der Stadt Berlin. Die meisten Wahllokale in Pankow repräsentieren die sozial-ökologischen (44.8% der Wahllokale) und die sozial-konservativen (42.2% der Wahllokale) Wählertypen;
  • Das “Muster” in dem die Cluster in Berlin angeordnet sind, deckt sich direkt mit den Wahlergebnissen der Zweitstimmen der Bundestagswahl 2017 in Berlin.

Die räumliche Anordnung der Wählerschaften kann einfach auf einer Karte dargestellt werden und gibt einen Hinweis auf die politischen Präferenzen der meisten Bürger in bestimmten Ortsteilen und kleineren räumlichen Einheiten, bezogen auf die Wahllokale. Die Karte kann damit bei der Vorbereitung auf den Wahlkampf eine hilfreiche Unterstützung darstellen.